查看原文
其他

商务统计学基础 | 第二章 参数估计:正态分布方差的区间估计

王汉生,王菲菲 狗熊会 2023-09-03
点击上方"狗熊会"关注我们吧!

在上一节中,我们讨论了正态分布总体均值的区间估计。除了总体均值(简称均值)之外,总体方差(简称方差)也是一个非常重要的参数。我们在2.1和2.2中探讨了总体方差的矩估计和极大似然估计的结果,使用这两种估计方法获得的都是的点估计量,那么如何构造它的区间估计呢?本节,我们就来重点研究方差的置信区间的估计形式。在此之前,我们首先通过几个案例来说明方差的重要性。
案例1:金融风险。 投资就有风险,没有风险的投资(例如:银行定期存款),就不可能有超额的收益率。因此,一个聪明谨慎的投资人并不会盲目规避风险,而是要对风险做出准确评估,并因此赚取合理的收益。以股票投资为例,如何测量股票投资的风险,是金融计量中一个永恒的研究主题,对此不同学者提出过各种不同的方法。在所有这些方法中,诺贝尔经济学奖得主马科维茨的均值方差理论应该是最重要的方法之一。该理论认为,在构建投资组合时,需要解决两个核心问题:期望收益率(均值)和风险(方差),投资者需要在二者之间达到平衡。在固定的期望收益率下,调整投资组合的比例以最小化风险。该理论中,期望收益率是用均值来度量的,而风险呢?正是用方差来度量。为了能够获得一个更加直观的感受,我们考虑两个投资标的物。一个是沪深300指数,另一个是贵州茅台股票。然后将它们在2021年242个交易日的日度收益率计算出来,并形成对比箱线图2.4.1。从中可以看到什么?是不是可以明显看到沪深300指数的波动性要比贵州茅台的波动性小很多?通过进一步计算可以知道,它们对应的方差分别为1.366(单位:)和5.542(单位:)。跟我们在对比箱线图上获得的感受完全一致。

图2.4.1:沪深300指数和贵州茅台日度收益率箱线图

案例2:质量控制。 在工业生产中,对产品的质量控制非常重要。考虑某生产线生产某种产品,该产品的标准重量应该是20g。但是,实际生产过程中不可能毫无误差。事实上,一定的误差是完全可以接受的。对于该产品而言,假设客户能够接受的误差是20g±1g这样一个范围。然后,再考察一条生产线,该生产线上生产的产品重量服从均值为20g的正态分布,假设方差可以取不同的值(例如)。然后分别按照时间顺序,连续抽取100个产品样本,并记录它们的重量,绘制时间序列图2.4.2。该图中,三种不同颜色的曲线分别表示三种生产状况(即方差取不同值)。第一种状况如红色折线所示,此时生产线的稳定性很差,次品频出,无法让人接受。第二种情况如蓝色折线所示,此时生产线的稳定性良好,很少出次品,但是偶尔也有次品产生。第三种情况如绿色折线所示,此时生产线的稳定性极好,几乎不可能出次品。我们喜欢哪种情况呢?显然是第三种。那么第三种情况与另外两种情况的核心区别是什么?答:稳定性不同,或者说方差不同。对于本案例而言,方差就是对生产线稳定性的测量,是对产品质量的保证。对于能够容忍的估计误差而言(1g),如果生产线的标准差能够远远小于该数字,那么该生产线的稳定性将极其出色。这就是质量控制管理中著名的理论的核心。

图2.4.2:三种生产线产品重量时间序列图

案例3:异常值检验。 大气污染是一个关乎亿万家庭公共健康安全的重大问题。在我国以PM2.5为主要指标的大气污染监控网络已经颇具规模。相关部门也制定了严格的管理措施,对全国各地的PM2.5水平做全方位监控并治理。而科学监控和有效治理的前提是:数据质量要过硬。目前我国的PM2.5数据主要通过国控站点监控获得,整体数据质量很好。但是,作为一个超大规模的数据采集网络,偶发的数据质量问题也难以完全避免。但是极少数的被污染的数据可能会极大地影响后续的统计分析,因为大量的统计量(例如样本均值)对异常值是非常敏感的。因此,在质量监控过程中,如何快速发现并甄别这样的异常数据,就变得非常重要。在实际工作中,异常数据的产生可能有多种可能性。第一种可能性就是设备失效,毕竟任何设备都有失效的时候。如果是这样,那么就需要及时维修。第二种可能性是人为的破坏,如果是这样那就需要及时加强管理。但是,无论是哪种情况,都需要数据科学工作者具备自动发现异常值的能力,而要具备这种能力就需要能够对“异常值”有一个科学合理(但是可能不完美)的定义。而一个常见的关于异常值的定义就依赖“正常数据”的均值和方差。假设我们有一批经过充分校对的、高质量的北京市的PM2.5数据。那么,我们可以对其做直方图(图2.4.3左)或者箱线图(图2.4.3右)如下。由于PM2.5数据呈右偏分布,这里对其做了对数处理。从中可以看到,正常的对数PM2.5的取值有一个范围,大概以其均值3.028为中心,不超过4倍标准差()。如果超出这个范围,在实际工作中也许就可以定义为异常值。当然,这里的“异常值”仅仅是标识异常,是真的被污染数据还是实际情况就是这样,需要人工分析。这里数据分析的主要贡献是:自动发现这些需要进一步研究的异常数据情况。由此可见,能够准确估计方差是异常值发现和数据质量管理的重要保障。

图2.4.3:对数PM2.5的直方图和箱线图

案例4:离散程度。 方差可以用于衡量一组数据的离散程度,从而反映一个群体在某个特征上取值水平的变异程度是大还是小。以商学院的教学评估为例。同样一门课,同样一个老师讲授,甚至教学内容也基本相同,但是不同班级不同同学给出的教学评估成绩会各不相同。这到底是为什么?通过初步的描述性数据分析发现,原来不同的学生群体,对于教学质量的诉求各不相同。对于同样的教学质量,不同学生群体心里评价的尺度也各不相同。这就造成了他们的评估结果各不相同。为了更好地说明这个问题,将国内某商学院340门课程的教学评估成绩,按照授课对象的不同(MBA学生,本科生、研究生)分成三组,然后做分组箱线图2.4.4。从中可以看到几个非常有趣的现象。第一、从平均水平角度看(以中位数计),研究生对老师的评价系统性地比MBA学生以及本科生更加慷慨。第二、对比MBA和本科生,他们对老师评价的平均水平(以中位数计)是相似的,差别很小。但是,本科生评估成绩的变异性小很多。这说明,本科生同学对老师的评价比较趋中,不容易特别高,也不容易特别低。但是,MBA同学的评价差异性更大,满意的课程可能评价非常高,而不满意的课程可能评价非常低。而这种离散度上的差异,就可以通过方差来刻画。计算三个群体评估成绩的方差,发现:MBA 的方差为 0.293,本科生的方差为 0.158,研究生的方差为 0.157,这反映了三个群体在成绩评估方面的离散度。

图2.4.4:MBA、本科生和研究生教学评估结果的对比箱线图

从上面几个案例可以看到,大量重要实际问题的研究都依赖于对数据分布中方差的估计,因此需要对这个问题做一个更加深入细致的讨论。请问:如何对方差进行估计呢?通过前面2.1和2.2节的学习,我们知道,假设总体是正态分布,那么总体方差的一个点估计量为,如果进一步考虑的无偏估计量,则形式为。其实这两个估计量也可以从矩估计的角度去理解。因此,即使在非正态分布假设的情况下,它们仍然是简单而有效的方差估计。此外,我们之前还讨论过,这两个估计量在样本量很大的时候是非常相似的。下面进一步讨论一下这两个估计量的方差。在不同的分布假设下,获得的数学公式可能是不一样的。相对简单的情况是正态分布假设。在该假设下,可以计算得到这两个估计量的方差,分别为。由此可见,这两个估计量的方差也是随着样本量增大而趋于0的。请注意:这里我们计算的是“样本方差”的“方差”。稍微再复习一下:什么是参数?什么是统计量?这里的“样本方差”是统计量,而“方差”是参数。从上面的计算可以再次核实确认,两个方差估计都是很好的估计量,它们的精确程度都随着样本量的增加,可以无限收缩到0。但是遗憾的是,它们都是点估计。理论上不排除这样的可能性,有两个数据集,产生的样本方差的估计结果都是1.0,请问它们的精度是一样的吗?答:不一定。例如,第一个估计量所使用的样本量是100,而另一个估计量所使用的样本量是10000,请问哪个更加精确?显然大样本量下得到的估计量更加精确,这也跟我们关于样本方差的方差计算相一致。但是,这么美好朴素的直觉是无法通过一个简单的点估计所表达出来的。因此,需要进一步考虑区间估计。以为例,如何通过它来构造的区间估计呢?尤其是应该如何构造置信区间呢?为此,需要了解所服从的分布,从而判断和总体方差之间的距离。接下来需要探讨的一个核心问题是:如何评价样本方差和总体方差之间的距离(即估计误差)。同样的问题,其实在样本均值和总体均值之间也出现过。当时,我们对估计误差的评价标准为:,是求差的方式。那么,是否可以考虑同样的方法呢?比如,我们用来表达估计误差的大小,这是不是一个可行的办法呢?答:可以的,但是数学上不是非常优美。为什么?举一个例子,假设样本方差,而经过测算,估计误差大概为2。那么,总体方差会是多少呢?一种可能性是,这似乎是一个可能的总体方差。但是,前面讨论过,样本方差是一个关于总体方差几乎无偏的估计。这说明,总体方差既可能比样本方差大,也可能比样本方差小。在后面这种情况下,总体方差的大小似乎应该是:,这居然是一个负数,这可能吗?答:显然不可能,因为总体方差只能是一个正数,不可能是负数,连0都不可能。所以,直接考虑总体方差和样本方差之间差值的方式,不是最好的选择。那应该怎么办呢?请注意,这里的核心问题是,总体方差是一个正数,不可能是负数。最好,我们有一种关于方差的变换,能够使它的取值范围从0到正无穷,变换到正负无穷之间。请问这样的变换是什么?答:对数变换。因此,与其考察样本方差和总体方差之间的算术差,不如考虑对数变换后的样本方差和总体方差之间的算数差,即:。请注意,对数变换中,方差可以取正数范围内的任意取值,因此不再有取值不合理的担心,这是一个好的起点。同时注意到,对数方差的算术差完全等同于,即对数变换后的样本方差和总体方差的比值。由此可见,对数变换的奇妙之处是将原始的绝对差异(即:)直接改变成了相对差异(即:)。如果估计误差非常小,那么样本方差应该与总体方差取值相近,因此这个比值应该靠近1;否则就会远远大于1或者远远小于1。如果我们能够对该比值(即将看做一个随机变量)的随机规律做出科学的判断,那么就可以构造一个关于的置信区间。因此,需要研究一下的概率分布规律。所以接下来的问题是,服从什么分布呢?首先假设总体服从均值为,方差为的正态分布,是从总体中抽出的样本。接下来可以通过数学推导,求出的分布。经过某个合理变换,可以将转换为个相互独立的标准正态随机变量的平方和,这里用表示,其中就表示一个标准正态随机变量,而这个统计量,是服从自由度为的卡方分布。不同之间相互独立,记。由于卡方分布的自由度具有可加性,所以是服从自由度为的卡方分布的。聪明的你也许会注意到一个事情,我们的原始样本量是,可是表达成卡方分布的时候,为什么自由度变成了呢?为什么不是n呢?这是一个很好的问题。事实上,如果总体均值是已知的,那么构造一个类似的估计量,我们可以验证服从自由度为的卡方分布。但是很遗憾,这不是我们在实际中可以采用的统计量,因为实际中总体均值是未知的。所以,需要用样本均值对总体均值做一个替换。而就是这个替换操作,让我们失去了一个自由度。类似的现象在统计分析中经常碰到,并不是一个意外,其详细的数学推导需要更加丰富的线性代数知识,超出了本书的范畴。接下来,可以利用正态分布的联合密度,写出的分布函数:
其中个独立同分布标准正态随机变量的联合概率密度函数。利用此公式,经过一番数学推导,可以得到卡方分布的概率密度函数。这里用到的主要是微积分中球面坐标变换的技巧。下面直接展示最终结果:
这个函数的形式相当复杂。仔细观察,发现该分布只有一个参数。决定了,便可以决定唯一的卡方分布。你可能已经发现,中出现了几个“”,这是因为所表示的其实是自由度为的卡方分布的概率密度函数。前面我们提到,个独立的标准正态随机变量的平方和,又正好是所服从的卡方分布的自由度。那么,如果是个独立的标准正态随机变量的平方和呢?它服从自由度为的卡方分布,概率密度函数如下:
下面我们可以计算自由度为的卡方分布的均值和方差。这里我们将充分利用卡方分布的一个特点。那就是:一个服从自由度为的卡方分布的随机变量,可以表达成个相互独立的服从自由度为1的卡方分布的随机变量的求和。具体细节如下:
这里用到了两个结论,对于服从标准正态分布的随机变量,有:(1),而且(2)。计算结果表明,自由度为的卡方分布的均值是,方差是。均值正好等于自由度,方差正好等于自由度的二倍。所以卡方分布的自由度越大,均值和方差便越来越大。我们可以做出不同自由度的卡方分布的概率密度曲线图来获得一个直观理解,如图2.4.5。

图2.4.5:不同自由度的卡方分布概率密度曲线图

回到如何构造方差的置信区间的问题上。我们已经知道了服从自由度为的卡方分布,便可以利用该分布构造置信区间了,具体如下:
这里分别表示自由度为的卡方分布的分位数和分位数。得到的置信水平为的置信区间为。现在我们来考察一下置信区间的长度问题。在上一节关于均值的区间估计中,我们知道,只要样本量足够大,均值的置信区间长度可以任意小。那么方差的置信区间长度是否也符合这个规律呢?计算一下置信区间的长度为:。如果样本方差的实现值固定,那么置信区间长度就是一个只与有关的量。但我们似乎无法直接判断随着的增大,这个长度会怎么变化。为此,我们进行了一些数值计算。具体而言,以自由度为横轴,以分位数与自由度的比值为纵轴,取0.01,0.05,0.10这3个不同的值,分别画出曲线如图2.4.6所示。其中,实线代表,虚线代表。根据图2.4.6我们发现,无论是多少,随着的增大,所有分位数与自由度的比值()都向1收敛。所以,当足够大的时候,也都会趋于1,因此方差的置信区间长度可以任意小,这也符合我们的基本预期。

图2.4.6:不同α下的

接下来再探讨一下卡方分布与正态分布之间的密切联系。再次强调一下,卡方分布有一个非常独特的性质,那就是:相互独立的卡方分布之和仍然是卡方分布。如果随机变量分别服从自由度为的卡方分布且它们相互独立,那么 服从自由度为 的卡方分布。所以,自由度为的卡方分布可以看作是个相互独立的自由度为的卡方分布之和。因此,用表示一个服从自由度为的卡方分布的随机变量,则它相当于个服从的随机变量之和,所以服从的分布就相当于的样本均值的分布。你看,这不就是独立同分布随机变量的样本均值吗?模仿前面的计算可得的期望为,方差为。也就是说,会以方差为的速度收敛到的分位数也会随着的增加越来越靠近,如图2.4.6所示。接下来,对作一个标准化,得到标准化后的随机变量,根据中心极限定理可知,应该是随着n的增大趋于标准正态分布的。为了验证该规律,可以对不同的,分别模拟生成1000条数据,绘制出直方图,并画出标准正态分布的概率密度曲线进行对比,如图2.4.7所示,可以明显看到,随着的增大,越来越接近标准正态分布。

图2.4.7:不同下的的频率直方图和标准正态分布概率密度曲线

这个发现非常有趣,它给了我们一个重要的启发。那就是,随着自由度的增加,卡方分布越来越像正态分布(不是标准正态分布),因此对应的卡方分布的分位数,应该与正态分布的分位数有着千丝万缕的关系。考虑分位数,也就是基于自由度为的卡方分布所得到的分位数,同时标准正态的分位数记为。因此,我们有:
请注意,是一个随机变量,而是一个非随机的数字,另外表示的是一个标准正态分布的随机变量。因此,我们应有。该近似变换的精确度会随着自由度的增加而增加。为了验证这一点,我们定义,然后考察不同的自由度下的取值情况,并绘制图2.4.8。当时,标准正态分布的分位数为。可以看到,随着自由度的增加,的差异越来越小。由此而见,所谓的卡方分布,其实到最后也是正态分布,只要自由度足够大。这个现象也并不少见。统计学中的大量分布,都有这个特征,只要某一个量(例如:自由度)足够大,最后这个分布就皈依到了正态分布。

图2.4.8:不同自由度下的取值变化

前文我们得到了置信区间为。由于,因此有。利用卡方分布分位数和正态分布分位数的近似关系,基于正态分布也可以得到一个置信区间:
这两种置信区间的区别有多大呢?不妨通过一个实际例子来计算对比一下。我们使用上证综指从1997年1月到2021年7月总共5951天的日度收益率数据,分别基于卡方分布分位数和正态分布分位数,求出方差的95%置信区间。计算可得样本方差。样本量,通过查表可以得到相应的卡方分布分位数:,以及变换后的正态分布分位数:。代入计算,得到基于卡方分布分位数的置信区间为:[2.3696,2.5461],基于正态分布分位数的置信区间为:[2.3703,2.5470],二者的差距并不大。最后,我们再以股票收益率为例,展示方差置信区间估计的应用。我们仍然使用前面章节中多次使用的2019-2020年上交所的1422只主板A股的日度收益率数据。对于每只股票,日度收益率的方差度量了它的风险,我们可以对每只股票求出方差的95%置信区间,并按照股票日度收益率的均值从小到大进行排序,以排序为横轴,日度收益率方差的置信区间为纵轴画出图2.4.9。

图2.4.9:2019-2020年上交所的1422只主板A股的日度收益率方差的置信区间

观察图2.4.9可以获得几个有趣的发现。第一,越在上方的线段长度越长,也就是样本方差越大的线段置信区间越大,这可以得到合理的解释,当样本量和置信水平都确定时,置信区间长度是与成正比的。第二,股票日度收益率的方差置信区间取值和均值大小有微弱的正相关,这似乎验证了高风险高回报的预期。第三,我们注意到少数股票的方差极大,整个置信区间都远离于平均水平,例如:*ST环球,其置信区间为[18.311,23.571],如此高的方差区间估计说明该股票的投资风险很大。第四,我们注意到少数股票的方差极小,整个置信区间都远小于平均水平,例如:中国银行,其置信区间为[0.787,1.013],这说明该股票的投资风险较小。

本节,我们介绍了方差区间估计所需要用到的卡方分布,展示了其概率密度函数和性质,接着基于卡方分布给出了方差区间估计的形式,然后探讨了卡方分布与正态分布的关系,并给出了基于正态分布的方差近似区间估计,最后结合具体案例,展示了方差区间估计的应用。目前,我们所学习的对均值和方差的区间估计,都是基于正态分布假定的。那么当数据服从其他分布(如:0-1分布、泊松分布、指数分布)时,如何对参数进行区间估计呢?这就是下一节将要学习的内容。



京东购书



当当购书


往期推荐

引言:从不确定性出发

第1章:不确定性的数学表达:连续型数据

第1章:不确定性的数学表达:正态概率密度

第1章:不确定性的数学表达:t-分布

第1章:不确定性的数学表达:指数分布

第1章:不确定性的数学表达:0-1分布

第1章:不确定性的数学表达:泊松分布

第2章:参数估计:矩估计

第2章:参数估计:极大似然估计

第2章:参数估计:正态分布均值的区间估计

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存